iT邦幫忙

2024 iThome 鐵人賽

DAY 6
0
AI/ ML & Data

AI Unlocked: 30 Days to AI Brilliance系列 第 6

AI如何理解我們的語言:自然語言處理(NLP)

  • 分享至 

  • xImage
  •  

隨著人工智慧技術的不斷發展,AI已經能夠像人類一樣理解和生成語言,這背後的核心技術就是自然語言處理(NLP)。無論是客服機器人、語音助手,還是語言翻譯,NLP的應用無處不在。那麼,AI是如何透過NLP技術來理解我們的語言並與我們交流的呢?

一、NLP的工作原理
自然語言處理技術在於理解我們人類表達的內容、透過我們的語言和我們溝通,它的用途相當廣泛,包括文本處理及分類、識別文字或車牌、語言翻譯以及作為客服機器人和我們對話等,都是由這個技術所包辦。

  1. 語言理解-語言模型:預測句子中下一個單詞
  • n-gram模型:計算前n個單詞出現的頻率預測下一個單詞,但是有時候我們必須仰賴上文才能推測下文,這種模型沒辦法取得較遠的上文(這種現象稱為長距離依賴)法。
  • 深度學習模型:能解決長距離依賴的問題,像是Transformer和之前提過的LSTM就是其中一種。
  1. 語言生成
  • 生成模型:根據上下文生成文本生成新文本,像是之前提過的RNN(循環神經網絡),它能夠處理序列數據,很適合生成任務。另外,Transformer模型是目前最先進的生成模型架構,能夠並行計算,加速訓練和推理。

  • 規則基系統:根據固定的語法規則和模板生成語句,常用於自動報告生成和問答系統。

<Transformer架構- BERT和GPT>
Transformer架構是一種專門處理序列數據的深度學習模型,是現代NLP模型的基礎架構、更可以說是NLP中不可或缺的核心技術,AI之所以能如此自然地和我們溝通都仰賴於Transformer的誕生。
核心:

  1. 自注意力機制(Self-Attention Mechanism)
    理解序列中每個詞與其他詞之間的關聯,相比於之前提過也可以儲利序列數據的RNN,它可以同時考慮句子中所有單詞的關係,而不依賴於詞語的順序,這也是為什麼它能解決n-gram長距離依賴的問題。
    此外,注意力機制分成多個「頭」來並行計算不同部分的注意力權重,這樣能夠關注句子的不同方面,又更增強了其捕捉語義的能力。

  2. Encoder-Decoder結構:
    編碼器:將輸入的句子轉換成特徵向量,主要用於理解句子的結構和語義。
    解碼器:基於編碼器的輸出來生成新的序列,用於生成語言或翻譯等任務。

BERT、GPT都是Transformer架構的模型,但是目標不同:

  1. BERT(Bidirectional Encoder Representations from Transformers)
    只使用Encoder、專注於理解語言,同時考慮句子的前後文來預測隱藏的單詞,適合文本分類、問答等。
  2. GPT(Generative Pre-trained Transformer)
    只使用Decoder、專注於生成語言,它通過從左到右依次生成文本,適合創造句子、寫作等。

二、AI語音助手:語音識別與生成技術

-STEP 1- 語音輸入:語音被捕捉並轉換為數字信號。

-STEP 2- 語音識別(ASR, Automatic Speech Recognition):將語音信號轉換為可供AI理解的文字

  1. 先用聲學模型:
    將語音波形轉換為音素(語音的基本單元),它基於大量語音數據進行訓練,使用了像CNN、LSTM等技術,來識別音素和語音信號。

  2. 再用語言模型:
    利用這些音素來預測句子的結構,將連續的音素轉化為單詞或句子。

  3. 解碼:
    最後,將音素和語言模型的輸出解碼,生成最可能的句子。

-STEP 3- 自然語言處理(NLP):理解語句的意圖,並決定如何回應。

  1. 意圖識別:分析文本輸入,識別用戶的意圖,包括基本的問答、語音命令(如開燈、設置鬧鐘)等。
    (深度學習模型如RNN、LSTM或Transformer通常用於這一階段,確保AI理解句子中的語義和上下文)

  2. 命名實體識別:識別句子中的關鍵實體,如人名、地點、日期等。
    例如:「今天下午三點設鬧鐘」,AI需要識別「今天下午三點」作為時間。

  3. 上下文管理:管理對話上下文,以便在多輪對話中保持連貫。
    例如:若用戶問「明天的天氣如何?」,AI需要知道“明天”指的是哪個具體的時間。

-STEP 4- 任務執行:開始執行某個任務(如設置鬧鐘、查詢天氣)或生成回應的文字。

-STEP 5- 語音生成(TTS, Text-to-Speech):轉換為語音,並回放給用戶

TTS模型可以調節語調、節奏和音色來將文本轉化為連貫、自然的語音,使語音聽起來更加自然,模仿人類說話的方式。

從語音助手到智能客服,這些應用不斷改變我們的生活方式,也為未來帶來更多的可能性。隨著技術的進一步提升,AI將能更加精準和高效地回應我們的需求,未來人機之間的交流或許將會變得更加無縫和智慧,為我們的日常生活帶來更多便利。


上一篇
從數據到體驗:AI 如何讀懂你的喜好
下一篇
AI如何認識世界:知識圖譜編織的信息世界
系列文
AI Unlocked: 30 Days to AI Brilliance12
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言